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摘 要 : 针对 维吾尔 文 网 页 论坛 中 的 文本 过 滤 问 题 , 提出 一 种 基于 术语 选择 和 Rocchio 分 类 器 的 文本 过 滤 方 法 。 首先， 


将 论坛 文本 进行 预 处 理 以 删除 无 用 词 ， 并 基于 N-gram 统计 模型 进行 词 干 (术语 ) 提 取 ; 然后 ,提出 一 种 均衡 考虑 相关 性 
和 宛 余 性 的 均衡 型 互信 息 术 语 选择 方法 (BMITS), 对 初始 术语 集合 进行 降 维 ,， 获得 精简 术语 集 ; 最 后 , 将 文本 特征 术语 
oe 通过 Rocchio 分 类 器 进行 分 类 ， 以 此 过 滤 掉 论坛 中 的 不 良 文 本 。 在 相关 数据 集 上 的 实验 结果 表明 ， 提 出 的 


能 够 准确 地 识别 出 不 良 类 型 文本 ， 具 有 有 效 性 
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Abstract: For the issues that the text filtering in Uyghur web forum, this paper proposed a text filtering method based on term 
selection and Rocchio classifier. Firstly, it preprocessed the forum text to remove useless words and extract stemming (term) 


based on the N-gram statistical model. Then, it proposed a balanced mutual information term selection method (BMITS), which 


和 的- considered the correlation and redundancy of equilibrium, used to reduce the dimension of initial term set and obtain the reduced 


term set. Finally, it made the text feature terms as input, and used Rocchio classifier to filter out the bad text. The experimental 


results show that the proposed method can accurately identify the bad type text, which is effective. 
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0 引言 文本 进行 有 效 分 类 ， 然 后 将 分 类 为 不 良 类 的 文本 进行 删除 内。 
上 对 于 维吾尔 文 文本 分 类 的 研究 ， 近 些 年 学 者 提出 了 一 些 方法 。 


随 着 互联 网 的 高 速 发 展 ， 网 页 论坛 也 爆发 式 增加 。 论 坛 方 。 ”例如 文献 [3] 提 出 了 一 种 基于 组 合 统计 量 (Dme) 的 维吾尔 文 文本 
便 了 网 民 的 信息 交流 ， 也 提高 了 工作 学 习 效率 。 然 而 ， 由 于 网 分 类 方法 ， 该 Dme 包含 了 互信 息 、t- 测 试 和 粹 值 ， 以 此 来 进行 
页 论坛 是 开放 式 的 ， 也 存在 一 些 负 面 影响 ， 如 迷信 、 反 动 、 暴 。”” 词 干 提取 和 降 维 ， 并 采用 K 近邻 算法 (k nearest neighbor, k-NN) 
力 色 情 等 非法 信息 的 传播 ， 不 利于 社会 的 稳定 和 人 民 身 心 健康 ”作为 文本 分 类 器 。 文 献 [6] 提 出 了 一 种 基于 词 频 - 逆 文本 频率 
[1,2]。 因 此 ， 对 网 页 论坛 中 一 些 非法 文本 进行 过 滤 具 有 重要 的 (term frequency-inverse document frequency, TF-IDF) 和 支持 向 量 
意义 。 机 (support vector machine, SVM) 的 维吾尔 文 情感 分 析 方 法 ， 通 
家 对 新 疆 地 区 发 展 的 大 力 支 持 ， 网 络 化 建 。 过 TF-IDF 获得 区 分 性 关键 词 。 文献 [7] 提 出 了 一 种 基于 Nat 


图 


近 些 年 ， 随 着 


设 也 得 到 快速 发 展 , 产生 了 很 多 以 维吾尔 文 进行 书写 的 Web 论 模型 和 曼哈顿 (Manhattan) 距 离 的 维吾尔 文 文本 分 类 技术 ， 其 采 
坛 。 有 些 疆 独 分 子 通 过 维吾尔 文 论坛 传播 着 各 种 不 良 信 息 ， 为 用 了 4 元 模型 ， 并 在 Manhattan 距离 中 融入 了 般 子 测量 。 然 而 
此 ， 对 维 文 网 页 论坛 中 的 不 良 文本 进行 过 滤 ， 对 新 疆 的 长 治 久 这 些 方法 都 不 能 很 好 地 对 特征 进行 降 维 ， 导 致 文本 分 类 精度 不 
安 具 有 促进 作用 喇 。 高 且 计 算 量 较 大 。 
为 了 实现 维 吾 尔 文 网 页 论坛 中 的 文本 过 滤 ， 主 要 是 对 这 些 为 此 ， 本 文 提出 一 种 基于 术语 选择 和 Rocchio 分 类 器 的 文 
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录用 稿 


本 过 滤 方 法 ， 并 通过 相关 对 比 实验 证 明了 该 方法 的 有 效 性 。 提 
出 方法 的 主要 研究 内 容 如 下 : 

a) 通 过 N-gram 统计 模型 进行 词 干 (术语 ) 提 取 , 并 通过 实验 
确认 ， 当 N=4 时 最 适合 维吾尔 文 文本 特性 。 

b) 为 了 解决 传统 基于 互信 息 术 语 选 择 方法 (mutual 
information term selection, MITS) 的 缺陷 ， 提 出 一 种 均衡 考虑 相 
关 性 和 元 余 性 的 均衡 型 MITS (balanced MITS, BMITS)， 从 初始 
术语 集合 中 选择 出 具有 高 区 别 性 的 术语 子 集 。 

9 选择 了 在 效率 和 泛 化 能 力 方面 都 较为 优越 的 Rocchio 分 
类 器 对 文本 进行 分 类 ， 过 滤 掉 不 良 文 本 。 


1 ”维吾尔 文 的 文本 分 类 描述 


1.1 维吾尔 语 的 语言 结构 
维吾尔 语 是 一 种 高 度 黏着 性 语言 ， 其 单词 由 32 个 字母 组 


成 ， 每 种 字母 有 4 种 不 同 的 形式 ， 致 使 其 时 态 和 形态 变化 比 英 
作 吾 尔 语 中 ， 通 过 在 单词 的 结尾 添加 不 同 的 词缀 来 
实现 语法 功能 由。 即 很 多 词语 是 由 同一 词根 演变 而 来 的 ， 且 这 
些 单词 的 词义 相差 不 大 。 由 于 这 些 特征 ， 导 致 维吾尔 语文 本 的 


语 更 丰富 。 扣 


如 先 姑 力 ， 阿 布 都 热 西 提 ， 等 : 


统 中 使 
级 ， 然 后 通过 检查 
基于 一 个 假设 ， 即 


为 个 连续 字符 ， 相 
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< 
过 


月 | 


滤 方 法 


以 的 词 将 具 


来 降低 所 


是 
除 停止 词 并 


中 观察 到 的 单词 。j 


忽略 文本 的 结构 


大 量 术 语 ， 因 此 ， 


;部 


中 ， 通 常 通过 


很 高 的 N-gram 比例 。 


了 不 同 的 算法 来 找到 词根 和 模式 。 其 首先 删除 最 长 前 
单词 的 前 五 个 字母 来 提取 词根 。 然 而 该 算法 
词根 一 定 会 出 现在 单词 的 前 五 个 字母 中 。 在 
统计 提取 法 中 ， 常 用 的 为 N-gram 模型 03， 其 根 志 
性 度量 对 相关 单词 进行 分 组 ,N-gram 模型 是 从 单词 


昌 字 符 串 相似 


pb 提取 一 组 


提取 的 词 干 集合 的 


全 度 ， 


获得 


提取 词 二 后， 将 每 个 文本 


需要 对 术语 空 


些 术语 评估 函数 来 对 术 i 


间 进行 降 维 。 


= 


4 矢量 表示 ， 称 做 文本 表示 的 词 包 方法 。 在 这 
和 词 序 ， 其 特征 向 量 
1| 练 集中 的 超级 矢量 W(w,,…,w,) 由 
所 有 样本 词 干 (也 叫做 术语 构成。 通常 ， 在 文本 分 类 中 会 有 


示 文 本 
| 练 集中 


了 降 维 


在 英语 文本 分 类 
， 选 择 出 


重要 术语 ,这 些 函数 有 文本 频率 、 互 信息 增益 、y? 统计 量 、NGL 


系数 和 GSS 系数 等 03]。 


文本 分 类 ， 其 


是 根据 输入 的 


前 常用 的 是 通过 


原始 特征 维 数 大 、 文 本 表示 稀 疏 等 问题 中， 与 传统 中 文 或 英文 
的 文本 分 类 方法 相差 很 大 。 

作 吾 尔 语 的 动词 和 一 部 分 名 词 是 由 词根 中 形成 的 。 词 汇 具 
有 固定 模式 ,通过 在 词 的 前 后 添加 前 级 和 后 缀 可 以 表示 它 的 数 、 
性 和 时 态 。 表 1 展示 了 可 能 添加 到 单词 * SL*( 诗 人) 中 的 不 


AS 


而 训练 分 类 器 。 构 
和 非 参 数 方法 。 参 


对 已 经 手动 分 


文本 特征 ， 对 


类 过 的 文本 进行 归 


建 分 类 器 具有 
数 方 法 中 ， 训 


数 ， 如 概率 朴素 贝 
分 为 两 类 ， 基于 样 


叶 斯 分 类 器 。 


本 


集 文本 进行 比较 ， 
本 类 中 ， 如 -近邻 
分 类 描述 (或 线性 


同 词缀 及 其 含义 。 其 中 ， 下 画 线 上 的 字母 为 词缀 。 
表 1 词 干 “St”( 诗 人) 上 的 添加 不 同 词 级 形成 的 单词 
维吾尔 语 单词 词义 维吾尔 语 单词 词义 
2 诗人 bs 在 诗人 
Ee 诗人 ( 女 ) 2 在 诗人 《(《 女 ) 
om 诗人 的 dbs。 像 个 诗人 
BPS 诗人 们 He 我 的 诗人 
2 诗人 们 ( 女 ) Ja 你 的 诗人 
Ns 诗人 们 的 J eww 他 的 诗人 


1.2 维吾尔 语 的 文本 分 类 过 程 

已 有 大 量 的 研究 人 员 对 汉语 和 英语 文本 进行 分 类 研究 ， 但 
很 少 有 人 对 维吾尔 文 进行 文本 分 类 。 在 这 里 将 对 维吾尔 文 文本 
分 类 的 三 个 主要 步骤 进行 描述 ， 分 别 为 词 干 提取 、 特 征 降 维 和 
文本 分 类 。 

词 干 提取 ， 其 是 从 一 个 词 中 移 除 所 有 词缀 来 获得 词根 的 过 
程 ， 以 此 在 文本 信息 获取 任务 中 提高 性 能 ， 特 别 是 在 类 似 于 维 
吾 尔 语 之 类 的 高 度 莫 着 性 语言 中 。 在 中 文 和 英语 文本 分 类 
中 ， 词 干 提取 大 多 采用 去 除 后 级 和 停留 词 的 方法 。 基 于 词根 和 
词 干 提取 技术 是 使 用 形态 学 分 析 方 法 对 给 定 维 吾 尔 语 单词 进 
词根 提取 的 操作 。 例如 , 文献 [10] 尝 试 通过 将 单词 与 所 有 可 能 
模式 以 及 所 有 可 能 附加 的 词 级 进行 匹配 , 从 而 找到 单词 的 词根 ， 
但 是 该 算法 不 能 删除 任何 前 级 或 后 级 。 文 献 [11] 在 形态 分 析 系 


S 


ie 


~、 


dl 


WF 


矢量 通过 对 训练 集 


将 文本 分 类 到 


两 种 不 同 的 方法 ， 旧 
练 数据 用 于 估计 概率 分 布 的 参 
非 参数 方法 中 ， 又 可 以 进 
的 非 参数 方法 ， 即 将 被 分 类 的 文本 与 训练 
与 此 文本 相似 度 最 高 的 训 


学 习 


文本 进行 分 类 。 


， 从 


1 参数 方法 


分 类 器 ;基于 


萌 述 的 非 参数 方法 ， 


分 类 器 ) 


文本 预 分 类 得 


2 ”提出 的 维吾尔 语文 本 分 


本 文 


的 是 应 


用 机 器 学 习 方 


其 首 世 


步 


练 文 


先 将 


个 术语 权重 的 矢量 表示 ， 这 一 


到 ;然后 将 描述 用 做 


类 模型 


法 对 维 


训 


练 数据 ， 
与 待 分 类 文本 进行 比较 来 进行 分 类 ， 如 Rocchio 分 类 器 。 


吾 尔 文 网 页 论坛 中 的 文 


本 进行 分 类 过 滤 。 所 提出 的 模型 主要 包含 文本 的 预 处 理 ( 词 干 提 


取 )、 术 语 选 择 和 文本 分 类 三 个 阶段 。 图 1 展示 了 所 提出 的 维 吾 
尔 语 文本 分 类 模型 。 
词 干 提取 
删除 停止 N-gram 模型 
词 、 符 号 等 2 提取 词 二 
Rocchio BMIFS 
分 类 器 进行 分 WE 
图 1 所 提出 维吾尔 语文 本 分 类 系统 的 模型 
文本 预 处 理 过 程 即 词 干 提取 过 程 ， 包 含 移 除 停 止 词 和 具有 
t 同 词根 的 词 。 之 后 ， 将 构建 一 个 超级 矢量 ， 再 使 用 特征 选择 
技术 对 超级 矢量 进行 降 维 ， 并 将 文本 以 术语 权重 矢量 的 形式 表 
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录用 稿 如 先 姑 力 。 阿 布 都 热 西 担 ， 等 : 维吾尔 文 论坛 中 基于 术语 选择 和 Rocchio 分 类 器 的 文本 过 滤 方 法 
示 。 最 后 ， 构 建 分 类 器 并 评估 其 性 能 。 终 词 干 。 对 语料库 中 的 所 有 术语 对 ， 计 算 其 相似 性 度量 。 具 有 
2.1 基于 N-gram 统计 模型 的 词 干 提取 高 于 预定 义 相似 性 阔 值 的 术语 被 聚 类 ， 并 仅 用 其 中 一 个 术语 来 

对 于 词 干 提取 ,通常 有 基于 词根 的 方法 和 基于 统计 的 方法 ， 表示 。 

相 比 而 言 ， 基 于 统计 的 方法 更 适合 维吾尔 语文 本 分 类 任务 。 本 下 面 的 例子 描述 了 基于 N-gram 模型 (N=2)， 计 算 两 个 词 
文采 用 了 N-gram 统计 模型 来 提取 维吾尔 语词 干 。 采 用 的 N- bs (政治 ) 和 总。 (政治 的 ) 的 相似 性 。 

gram 为 字母 级 别 ， 将 所 有 连续 的 NN 个 字母 序列 作为 一 个 单元 ， 1 ub iow 。( 首 先 将 词 分 解 为 两 字母 组 合 
称 为 一 个 gram。 模型 ) 

N-gram 模型 中 , 其 设 定 一 个 字母 单元 7 在 文本 中 出 现 的 概 2. 分 解 成 的 两 字母 组 合 之 忆 A Re 
率 只 与 前 N-1 个 字母 相关 。 因 此 ， 字 和 母 序列 工 =744,.…,ly 出 现 3. Eo, 

的 概率 表示 为 4. 分 解 成 的 两 字母 组 合 二 由 me eaeem 。 
PCD = PODb,,..., a A (1) 那么 ， 相 似 性 为 : S- 二 -了 -08571。 其 中 : 4 和 


在 维吾尔 语 中 ， 由 于 字母 相互 结合 的 概率 很 高 ， 所 以 较 短 了 分 别 表示 第 一 个 词 和 第 二 个 词 中 不 同 的 两 字母 组 合 数量 ，C 
:能 很 好 地 表现 单词 属性 ,而 N=3,4 等 较 长 时 具有 较 强 的 。 ”表示 两 个 词 共 同 的 两 字母 组 合 数量 。 将 相似 性 大 于 闵 值 7 的 两 
代表 性 。 个 词 归 为 一 个 词 干 。 

在 本 文 基于 N-gram 统计 模型 的 词 干 提取 方法 中 ， 首 先 移 ” 2.2 基于 BMITS 的 术语 选择 


到 
之 
a 
ni 


除了 单词 中 最 常见 的 前 缀 和 后 级 ， 也 包含 外 国语 、 数 字 、 停 止 2.2.1 传统 术语 选择 方法 
词 等 ， 然 后 通过 N-gram 模型 计算 两 个 词 的 相似 性 ， 以 此 来 提 为 了 提高 分 类 器 的 性 能 ， 需 要 对 输入 文本 的 术语 集 进行 降 
取 词 干 ,基于 N-gram 统计 模型 的 词 干 提取 算法 如 算法 1 所 示 。 维 。 术 语 选 择 技 术 用 于 从 初始 术语 集中 选择 出 最 能 表达 文本 意 
算法 1 基于 N-gram 统计 模型 的 词 干 提取 算法 思 的 术语 子 集 。 通 常 使 用 术语 评估 函数 fc; 对 初始 集合 中 每 个 
For 文本 中 的 每 个 词 术语 进行 评分 ， 选 择 出 评分 较 高 的 术语 。 
If 非 维吾尔 语词 汇 Then 该 词 是 无 用 词 ; 在 已 有 研究 中 , 常用 的 特征 降 维 技术 有 互信 息 、y? 统计 量 、 
If 包含 数字 Then 该 词 是 无 用 词 ; NGL 系数 以 及 GSS 系数 等 方法 ， 这 些 方法 的 表达 式 如 下 : 
If 单词 长 度 <3 Then 该 词 是 无 用 词 ，; 互信 息 增益 jy 为 
移 除 附加 符号 ， 并 标准 化 词汇 ; pe 了 Palog P(t,c) O) 
If 该 词 是 停止 词 Then 该 词 是 无 用 词 ; CelGajretm P(D)P(Cc) 
移 除 前 级 和 后 缀 ; 轨 统 计量 CT 为 
If 该 词 是 停止 词 “Then 该 词 是 无 用 词 ; cH1G 0) < LCP Pe) -Ps cP OF @) 
利用 N-gram 统计 模型 计算 单词 间 相 似 性 获得 词 干 ; P(E) PL) PG) PC,) 
End For NGL 系数 NGL 为 
首先 算法 确保 单词 是 一 个 维吾尔 语词 ， 并 认为 长 度 少 于 三 站 SEE 
ae 靖 MT (Pc) P(t,c) — Pi,c) Pt,c,)] 
个 字母 的 词 在 文章 中 是 不 重要 的 ; 接着 会 移 除 各 种 附加 符号 ， NGL(Li ,ci) = = = (4) 
ee ; a VP) PE ) Pe) Pe) 
这 些 符号 在 字母 的 上 面 或 下 面 用 于 正字 法 ， 作 为 词法 的 标志 ; 
之 后 应 用 词 标准 化 方法 ， 将 一 些 字母 的 不 同 写法 〈 扩 展区 ) 统 GSS 系数 Gss 为 
一 为 相同 的 形式 ， 如 将 ww， we， ~， ~ 统一 为 mw ; 将 *, 4 统 GSS(t,,c,) = Pt,c) Pt,c,) — P(t,c,) PL,c,) (5) 
一 为 - * 等 。 其 中 : p(x,c) 表示 为 对 一 个 文本 x ， 术 语 4 不 在 x 中 ， 但 是 
词 形 标 准 化 后 ， 算 法 会 检查 单词 是 否 在 一 个 停止 词 表 中 。 x 属于 c 类 的 概率 。 
停止 词 表 由 165 个 单词 组 成 。 消 除 停止 词 后， 算法 移 除 一 组 前 。 2.2.2 互信 息 术 语 选择 方法 (MITS) 


级 (cB co jccsbe jw 心 os 等 )。 移 除 后 ， 算 法 会 检查 互信 息 (MD 可 表示 一 个 随机 变量 中 包含 另 一 个 变量 信息 的 
单词 长 度 是 否 小 于 3 个 字母 ， 如 果 小 于 3 个 ， 说 明 前 纵 是 单词 。 程度 ， 是 统计 相关 性 的 测度 。 其 输出 为 一 个 非 负 值 ， 其 中 零 表 
的 一 个 主要 部 分 ， 因 此 移 除 的 前 绥 会 恢复 到 单词 中 。 接 着 将 后 。 示 两 个 变量 是 统计 独立 的 。 
缀 (Late A YS OE Os oc 基于 互信 息 理论 来 选择 文本 术语 的 方法 称 为 互信 息 术 语 选 
等 ) 递 归 地 从 词尾 移 除 。 首 先 从 最 长 的 后 绥 开 始 , 再 移 除 较 短 的 。 ” 择 (MITS) [9。MITS 中 ， 其 通过 计算 I(e;n,5) 来 选择 术语 。 
当 词 的 前 级 和 后 级 都 移 除 之 后 ， 算 法 还 会 检查 该 词 是 否 属于 停 ” 7(c;h,S) 表示 在 所 选择 的 术语 集 8 中 ,增加 术语 4 后 形成 的 新 
止 词 表 中 的 词汇 ， 这 是 因为 一 些 停止 词 也 会 附加 前 级 和 后 级 。 术语 集 与 文本 类 别 c 之 间 的 互信 息 ， 反 映 了 术语 1 对 文本 分 类 
最 后 ， 利 用 N-gram 统计 模型 计算 单词 间 的 相似 性 获得 最 。 ”的 页 献 程度 。7(c;t,S) 是 通过 计算 术语 4 与 类 别 c 之 间 的 互信 
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息 (ca) ， 然 后 计算 术语 与 先前 所 选 术语 1 之 间 的 互信 息 
1(tiit,) 之 和 ， 并 将 其 乘 以 一 个 比例 系数 8 对 7(cit.) 进行 校正 
来 获得 。 表 达 式 如 下 : 


IT(ch,S )=7(c; ti) a (tit (6) 


I(c;h,S) 等 式 右边 的 第 一 项 为 候选 术语 与 文本 类 别 之 间 
的 互信 息 ， 表 示 相 关 性 ; 第 二 项 为 求 和 候选 术语 与 已 选 术语 之 
间 的 互信 息 ， 表 示 宛 余 性 。 8 值 表示 为 在 进行 术语 选择 时 考虑 
输入 术语 之 间 宛 余 度 的 权重 ， 其 决定 着 在 选择 术语 时 ， 两 个 方 
面 ( 即 术语 与 文本 类 之 间 的 MI 和 术语 与 术语 之 间 的 MD 的 重要 
性 比重 。 
2.2.3 提出 的 BMITS 方法 
在 传统 MITS 基础 上 ， 学 者 提出 了 几 种 改进 型 的 MITS 算 
法 ,如 MITS-U 算法 等 。 这 些 方法 大 多 是 对 式 (6) 中 了 (c;h,5) 中 
第 二 项 进行 了 改进 。 然 而 这 些 方法 存在 一 些 限制 。 例 如 ， 
IT(c;h,S) 中 的 相关 性 和 元 余 性 通过 一 个 参数 5 来 进行 权衡 。 如 
果 5 太 小 , 则 算法 偏重 候选 术语 与 文本 类 之 间 的 MI, 根据 单个 
候选 术语 和 文本 类 之 间 的 MI 依次 选择 术语 ; 如 果 选 择 的 8 太 
大 , 则 算法 偏重 考虑 候选 术语 之 间 的 MI。 为 此 6 的 选择 较为 困 
难 ， 且 目前 也 没有 选择 参数 f 的 合适 方法 。 
为 了 解决 上 述 问 题 ， 本 文 提 出 一 种 均衡 考虑 相关 性 和 元 余 
性 的 均衡 型 MITS 算法 (BMITS)， 在 第 二 项 中 引入 了 候选 术语 
与 文本 类 之 间 的 互信 息 , 且 不 再 需要 人 为 设置 一 个 额外 的 参数 ， 
即 利 用 1/|s| 代替 8 。BMITS 从 一 个 初始 术语 集中 选择 出 具 
最 大 化 7(c;t ) 并 最 小 化 元 余 的 术语 ， 表 达 式 如 下 : 


Ep 0) 
中 :|S| 为 已 选择 术语 的 数量 ; oe 已 选 术语 集 y 中 ; 
术语 1 对 于 术语 + 的 相对 最 小 元 余 ， 定 义 如 下 : 
T(tist, 
We ee ®) 

当 I(c;t, )=0 时 ， 术语 大 可 被 丢弃 。 如 果 对 于 文本 类 ， t, 
和 之 间 高 度 相 关 ， 那 么 4 也 将 是 见 余 的 。 为 此 ， 需 要 设 定 一 
个 立 值 Th =0 来 与 G,, 进行 比较 。 如果 G,, <0， 则 当前 术语 4 
对 于 文本 类 C 是 不 重要 的 ， 其 将 会 降低 所 选择 的 术语 集 8 与 文 
本 类 C 之 间 的 ML， 并 将 其 从 8 中 删除 ， 如 果 G >0， 则 将 术语 
,作为 候选 术语 。BMITS 选择 术语 的 过 程 如 算法 2 所 示 。 
算法 2: BMITS 术语 选择 
输入 ;初始 术语 集 卫 = 位 类 = 2 帮 
输出 : 选择 的 术语 集 $ 
始 
1. 初始 化 $=; 
2. 为 每 个 术语 计算 1 (ct ) : 
. 设置 n ， 根 据 下 式 选择 术语 1 : 


Gy = arg sme ret)- £.) 


es ; 


1 
在 


如 先 姑 力 。 阿 布 都 热 西 提 ， 等 : 维吾尔 
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设置 Fh } ;Se SU{h};n=n-l; 
4. While Fz do 
计算 互信 息 增益 Gy ,找到 4 ,te {1,2,…,n}; 
设置 n =n -1; 下 和 FA 人 
If(G,, >0)then 


SSuU{h}; 


End if 
End while 

5. 根据 8 中 每 个 术语 的 G， 对 术语 进行 排序 并 进行 加 权 ; 
6. 返回 9 。 
2.3 基于 Rocchio 分 类 器 的 文本 分 类 

Rocchio 分 类 器 是 一 种 典型 的 应 用 于 文本 信息 过 滤 领 域 的 
分 类 器 03。 其 会 为 每 个 类 别 c 建立 一 个 原型 矢量 ， 文 本 矢量 > 
通过 计算 与 每 个 原型 矢量 间 的 距离 进行 分 类 。 类 别 c 的 原型 矢 
量 是 根据 属于 类 别 c 的 所 有 文本 矢量 加 权 平 均 得 到 的 。 这 意味 
着 ,与 KNN 分 类 器 相 比 ,Rocchio 分 类 器 具有 更 快 的 学 习 速 度 。 


对 于 类 别 cGw ,ww ) ， 其 原型 矢量 可 以 根据 下 式 计算 
得 到 
WwW, w., 
.=p 下 。 9 
We ,10s 2 2 人 
其 中 : wi 为 术语 4 在 文本 4d, 中 的 权重 ;POS, 为 属于 第 c 类 的 


文本 集合 (阳性 样本 ); ，NEG, 为 不 属于 第 c 类 的 文本 集合 〈 阴 
性 样本 );，p 和 y 为 控制 参数 , 用 来 设置 阳性 样本 和 阴性 样本 的 
相对 重要 性 。 如 果 8 设 为 1 而 y 设 为 0， 则 类 别 c 描述 为 其 阳 
性 训练 样本 的 重心 。Rocchio 分 类 器 是 根据 阳性 样本 的 聚集 
度 和 阴性 样本 的 疏远 程度 来 进行 分 类 的 。 阴 性 样本 的 作用 通常 
是 递增 强 ， 这 一 效果 通过 设置 较 大 的 8 值 和 较 小 的 y 值得 以 体 
现 。 根 据 相 关 研 究 ， 可 以 设置 5 =1.6,y =0.4 9。 

对 于 输入 的 未 知 类 别 样本 ，Rocchio 分 类 器 通过 比较 输入 
样本 x 与 每 类 原型 矢量 w 的 最 小 距离 来 对 样本 进行 分 类 。 划 
中 这 个 距离 gq0) 通常 为 欧 几 里 得 距离 。Rocchio 分 类 器 的 判决 表 
示 如 下 : 


让 
HH 
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c =argmin, cd (wi,x) (10) 
Rocchio 算法 通过 引入 一 些 拓 展 实例 来 解决 CNN 算法 的 
问题 。 个 广义 的 实例 代替 整个 训练 样本 集 ， 这 一 广义 
实例 是 通过 总 结实 例 样 本 分 布 得 到 的 。 当 新 的 实例 加 入 进来 时 ， 
对 其 分 类 只 需要 计算 新 实例 与 广义 实例 之 间 的 欧 氏 距离 即 可 。 
其 时 间 复 杂 度 为 oO(LM)， 其 中 工 表示 广 义 实例 的 数量 , M 表示 
每 个 文本 矢量 中 的 术语 数量 。 此 外 ， 根 据 每 类 中 实例 的 分 布 ， 
Rocchio 算法 还 可 以 解决 噪声 问题 。 例如 , 如 果 一 个 术语 在 某 一 
类 样本 中 频繁 出 现 ， 就 会 同等 反映 在 该 类 别 的 广义 实例 上 ， 这 
个 术语 相对 应 的 权 值 就 会 较 高 ， 另 一 方面 ， 如 果 某 一 术语 主要 
出 现在 其 他 类 别 的 实例 中 ， 那 么 广义 实例 中 这 一 术语 的 权 值 就 
会 趋 于 0。 因此 ，Rocchio 分 类 器 可 以 在 一 定 程度 上 提取 某 些 相 
关 术 语 。 
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3 ”实验 与 分 析 


3.1 维吾尔 文 论坛 文本 集 
本 文 在 Matlab2014 软件 上 实现 所 提 


安装 在 一 个 配备 Intel Core i5 CPU 和 Windows10 系统 的 个 人 电 


脑 上 。 


出 的 文本 分 类 方法 , 其 


为 了 构建 用 于 实验 的 维 吾 


类 、 暴 丽 类 、 反 动 类 、 色 情 类 和 迷信 类 ， 


f 尔 文 论坛 文本 集合 ， 本 文 从 人 民 
数据 库 中 收集 约 

分 别 为 正常 
4 的 文本 数量 


网 维 文 版 、 天 山 网 论坛 、ulinix 论坛 和 新 疆 公安 
2 400 篇 论坛 文本 。 其 中 ， 这 些 文本 共 分 为 5 类 ， 
每 种 类 型 


不 少 于 200 篇 。 在 均衡 考虑 各 类 样本 比例 下 ， 将 文本 
其 与 40% 作 为 测试 样本 集 。 


作为 训练 样本 外 
3.2 性 能 度量 


nt 


分 类 器 的 性 能 通常 使 用 精确 度 (precision ) 币 
来 描述 ， 精 确 度 表 示 一 个 随机 文本 qd. 被 划分 到 第 c 类 中 ， 并 且 
分 类 正确 的 概率 。 查 全 率 表示 随机 文本 d. 应 当 
这 一 决策 被 采纳 的 概率 。 精 度 和 查 全 率 表达 式 为 


TP 
Precision; = 一 一 一 一 一 
TP+rFP 
Recall, = 人 
TP+FN, 


其 中 : TP 表示 被 正确 分 为 第 i 类 的 文本 数量 ; 


属于 


集 的 60% 


[ 查 全 率 (recall) 


属于 c 类 ， 并 日 


分 到 第 i 类 的 文本 数量 ; 


FN, 表示 本 属 


综合 考虑 准确 性 和 查 全 率 才能 更 好 地 表征 


通常 可 以 使 / 


3.3 词 干 提取 性 能 分 析 


Precision, + Recall, 


(11) 


(12) 


FP 表示 被 错误 
于 第 i 类 但 被 错误 分 到 


分 类 器 的 性 能 
] F1 度量 来 对 两 个 参数 进行 组 合 ， 其 表达 式 为 


_ 2Precision, * Recall, 


(13) 


对 于 N-gram 统计 模型 词 干 提取 方法 ， 


参数 , 即 入 值 和 相似 性 病 值 7,。N 值 较 大 , 提供 


信息 ， 有 助 于 提高 分 类 器 精度 

算 复杂 度 ; 若 Y 值 较 小 ， 则 产生 的 特 4 

较 少 ， 区 别 性 不 强 。 
为 了 确定 最 优 参数 ， 


在 各 种 参数 下 进行 词 干 提取 和 分 类 实验 。 
特征 选择 方法 都 采 上 
最 终 分 类 的 Fl 度量 值 如 图 2 所 示 。 


但 也 会 加 大 计算 量 , 可 以 看 到 ， 当 使 


为 了 公 


图 2 的 结果 显示 , 随 着 入 值 的 增加 ,分 类 器 性 


其 中 需要 设 定 2 个 
了 更 多 的 语义 
， 但 会 大 大 增加 特 和 
下 项 所 包含 的 语义 信息 也 


征 项 ， 提 高 计 


分 别 设 定 N=2、3、4 和 5， 相似 性 闵 
值 工分 别 设 定 为 0.6、0.7、0.8 和 0.9。 构 建 16 种 参数 组 合 ， 并 
FF 比较， 后 续 
] BMITS， 分 类 器 都 采用 Rocchio 分 类 器 。 


所 提高 ， 


五 字母 组 


能 和 四 字母 组 合 (N=4) 时 的 性 能 相近 ， 只 有 


i 5) 时 的 性 
略微 的 提升 。 考 虑 到 


计算 量 ， 最 终 选择 N=4。 另 外 ， 当 相似 度 阔 值 T =0.8 时 ， 可 以 


取得 最 好 的 分 类 效果 ; 当 7,=0.9 时 ， 各 种 字母 组 合 


的 结果 都 变 差 。 这 是 因为 当 闭 值 太 高 时 ， 
相似 度 不 够 高 的 词 将 


一 些 北 京 


词 干 提取 法 
享 相同 词根 但 
会 被 分 开 而 不 进行 合并 ， 所 以 降低 了 词 干 


如 先 寻 力 。 阿 布 都 热 西 提 ， 等 : 维吾尔 


Chi 
论坛 中 基于 术语 选择 和 lnaX 


提取 效果 。 最 终 , 选择 N=4、7, =0.8 作为 词 干 提取 方法 的 参数 。 
0.845F 加 
0.84 上 - 
0.835 
区 0.83|- 
芽 
EK 0.825 
0.82r 
0.815 0.6 07 08 
相似 性 阔 值 Ts 
图 2 词 干 提取 参数 对 分 类 性 能 的 影响 
表 2 展示 了 一 组 在 T=0.8 且 N=4 时 N-gram 统计 模型 提 
取 的 词 干 。 
表 2 N-gram 统计 模型 提取 的 词 干 举例 
ee Las BORED di GS wa 
分 训 (推翻 (独立 ) (叛变 ) (间谍 ) 
CO ON Si Si Cn) 
(杀人 ) ( 抢 动 ) (打架 ) ” (枪支 ) (伤害 ) 
3.4 术语 选择 性 能 分 析 
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0.86 


“ib 


00 ”1500 ”2000 


eS- 传统 MITS 
一 # 一 X2 统 计量 
-日 -NGL 系数 
一 A GSS 系数 
—P-BMITS 


特征 集 大 小 


值 的 术语 子 集 。 
过 实验 比较 了 本 文 BMITS 选择 方法 与 传统 MITS、 jy? 
量 、NGL 系数 和 GSS 系数 方法 。 其 中 , 设 
和 征 各 (本 得 集 ) 大 小 在 1000~5000 变化 。 为 了 公平 比较 ， 都 采 
取 参 数 和 Rocchio 分 类 器 。 术 语 选择 方法 对 分 


2500 3000 3500 4000 4500 5000 
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